|
1.
基于功能语义单元的博客评论抽取技术
范纯龙 夏佳 肖昕 吕红伟 徐蕾
计算机应用
2011, 31 (09):
2417-2420.
DOI: 10.3724/SP.J.1087.2011.02417
博客作为一类重要的网络信息资源,其评论信息抽取是舆情分析等研究工作的基础。总结了当前主流的博客评论抽取算法,介绍了页面结构在信息抽取中的应用,并结合人理解网页时充分利用“首页”等指示性短语的特点,提出利用具有明确语义和功能指示作用的功能语义单元来抽取评论信息的技术;详细介绍了抽取过程中涉及的页面结构线性化、功能语义单元识别、正文识别和评论抽取算法等内容。最后,通过实验证明,该技术在博客的正文和评论信息抽取上能取得良好效果。
相关文章 |
多维度评价
|
|